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摘要 : [目的 /意义 ] 简 报 是 重要 的 情报 产品 ， 摘 要 和 主题 词汇 集 是 简报 的 重要 组 成 部 分 。 联 
合 国教 科 文 组 织 Unesco 发 布 了 大 量 高 价值 的 科技 报告 ， 为 了 满足 用 户 对 国际 专业 知识 的 需 
求 ， 需 要 快速 形成 信息 简报 、 提 高 情报 服务 能 力 。[ 方 法 /过 程 ] 本 文 以 认 知 科学 中 的 “选择 
性 注意 衰减 ”理论 模型 为 基础 ,将 信息 简报 的 生成 作为 人 类 认 知 信息 加 工 的 模拟 过 程 ， 对 实 
现 自动 生成 摘要 和 主题 词 集 方法 进行 了 探究 。 首先 以 选择 性 注意 中 的 “衰减 器 ”模型 为 理论 
支撑 ,从 摘要 、 主 题词 、 简 报 三 个 层级 进行 一 体 化 设计 。 然 后 , 采用 KeyBERT 和 Transformer 
算法 ， 对 联合 国教 科 文 组 织 Unesco 科技 报告 进行 主题 词 抽取 和 摘要 生成 ， 形 成 可 参考 性 的 
简报 情报 产品 ， 接 着 采用 信息 焙 和 ROUGE 值 对 生成 结果 进行 评价 。[ 结果 /结论 ] 实 验 结果 通 
过 ROUGE-2、ROUGE-L 值 评价 后 表明 选择 性 注意 衰减 模型 能 够 提高 摘要 效果 ， 禾 盖 文 本 的 核 
心 信息 ;从 信息 灶 的 角度 进一步 论证 表明 该 方法 自动 生成 摘要 结果 符合 人 的 基本 认 知 水 平 。 
研究 还 发 现 , 将 认 知 科学 与 计算 模型 紧密 结合 对 于 提高 信息 简报 的 可 解释 性 和 科学 性 有 显著 
和 作用， 有 助 于 形成 可 计算 、 可 解释 的 信息 简报 生成 与 知识 服务 模式 。 
关键 词 ， 知 识 发 现 ; 选择 性 注意 ; 文本 摘要 ; 主题 抽取 
分 类 号 ;G353 
1. 引言 

信息 爆炸 引发 了 信息 过 载 ， 用 户 获 取信 息 的 效率 面临 挑战 。 通 过 对 海 
摘要 ， 并 以 专题 简报 形式 推送 给 有 关机 构 或 用 户 ， 有 利于 帮助 用 户 把 握 前 沿 话题 、 及 时 掌 
屋 动 态 、 实 现 科 学 决策 。 国 际 组 织 所 发 布 的 各 类 报告 具有 较 高 的 权威 性 和 参考 价值 ， 有 必 
要 对 其 进行 快速 监测 和 动态 跟踪 ， 生 成 高 质量 信息 简报 并 推送 给 有 关机 构 ， 具 有 重要 应 用 
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从 认 知 科学 来 看 ， 信 息 简报 本 质 上 是 人 类 对 信息 再 加 工 的 过 程 。 人 在 阅读 文本 时 ， 大 


”基金 项 目 : 本 文 为 全 国 科技 名 词 委 2020 年 科研 项 目 “ 国 际 组 织 术 语 库 集 成 方法 研究 ”( 项 
目 编号 : YB20200011) 研究 成 果 之 一 。 

作者 简介 : 田 文 波 〈ORCID:0000-0002-4251-2763， 邮 箱 : 1207159394@qq..com )， 硕 士 研 
RA, 研究 方向 : 知识 组 织 与 知识 聚合 ; RHEL CORCID:0000-0003-1055-2717, 通讯 作者 ， 
邮箱 : spyer2008@126. com )， 男 ， 博 士 、 副 教授 、 硕 士 生 导 师 ， 研 究 方向 : 知识 组 织 、 自 
然 语 言 处 理 、 科 技 大 数据 ; 吴 柯 莹 CORCID:0000-0003-3013-6657, 邮箱 : wkeying129@163. com), 
硕士 研究 生 ， 研 究 方向 : 情报 学 ; 汉 超 慧 CORCID:0000-0001-6503-4111), MEWRÆ, W 
究 方 向 : 知识 组 织 与 知识 服务 。 


脑 往往 是 特定 时 间 特 定 环境 下 获取 有 限 的 关键 信息 ， 因 此 通常 会 将 有 限 的 处 理 能 力 分 配 在 
焦点 信息 上 ， 即 选择 性 注意 机 制 。 人 类 能 够 合理 分 配 和 充分 利用 有 限 的 注意 力 资源 ， 从 大 

量 信息 中 快速 而 且 精 准 筛选 出 高 价值 信息 、 过 滤 低 价值 信息 ， 以 “省 力 原则 ”达到 高 
效 的 信息 处 理 ， 这 是 人 类 在 长 期 进化 中 形成 的 一 种 生存 机 制 。 认 知 科学 界 提出 了 “过 滤器 
模型 ”等 理论 模型 ， 并 通过 眼 动 实验 等 进行 验证 ， 也 进一步 证 实 了 认 知 理论 模型 对 实现 摘 
要 技术 具有 有 重要 理论 价值 。 因 此 ， 本 文 以 信息 简报 生成 作为 应 用 场景 ， 以 联合 国教 科 文 
组 织 Unesco 数据 为 例 ， 将 选择 性 注意 模型 为 基础 与 计算 算法 紧密 结合 ， 模 拟人 类 信息 加 工 
内 在 规律 ， 提 出 并 验证 其 在 信息 简报 生成 中 的 作用 ， 为 提高 自动 摘要 的 科学 性 和 可 解释 性 


提供 有 力 支 持 。 
本 2. 相关 研究 
S 2. 1 注意 力 模型 
= 注意 力 与 深度 学 习 技 术 近年 来 深度 融合 ,发 展 迅速 。 曾 子 明 等 通过 构建 基于 用 户 注意 力 
= 机 制 的 U-BiLSTM 情感 分 析 模 型 分 析 情 感 演化 过 程 ， 具 有 较 强 的 可 解释 性 和 准确 性 ， 使 得 
co Fl 值 和 准确 率 都 有 所 提高 由 。 周 瑛 等 结合 了 长 短 时 记忆 (LSTM) 和 注意 力 机 制 模 型 ,通过 
A 华为 p10 闪存 门 事件 为 例 ， 证 明了 基于 选择 性 注意 力 机 制 的 情感 分 析 能 够 提高 情感 分 类 的 
> 成 功率 , 能 够 准确 的 提取 情感 特征 , ERR PARE AC), 胡 吉 明 等 利用 Text- 
te rank 算法 和 CNN-BiLSTM-Attention 集成 模型 对 政策 文本 进行 分 类 处 理 , 提升 了 分 类 的 效率 


和 准确 度 申 。 该 领域 研究 方向 主要 侧重 于 将 注意 力 机 制 与 情感 分 析 、 文 本 分 类 、 熏 情 监 测 等 
c 相 结 合 , 对 本 文 文本 摘要 也 有 启发 。 特别 是 ，Transformer 在 运算 效率 和 并 行 处 理 上 有 着 一 定 
FT 的 优势 ,为 实现 自动 摘要 提供 了 良好 的 技术 条 件 和 方法 。 值 得 注意 的 新 动向 是 ， 认 知 模型 与 
计算 方法 的 结合 , 往往 比 单纯 算法 优化 和 参数 设计 带 来 更 为 可 观 的 科学 进步 ,今后 还 应 该 对 
认 知 科学 加 强 实质 性 的 结合 ， 形 成 更 多 原创 性 的 研究 成 果 。 
2. 2 文本 摘要 
现 有 研究 主要 是 采用 机 器 学 习 算法 , 计算 机 领域 和 情报 技术 领域 有 不 少 成 果 。 李 维 等 提 
出 了 一 种 将 Text-rank 算法 与 词 向 量 结合 的 藏 文 抽取 式 摘 要 生成 方法 ， 把 句子 中 每 个 词语 映 
射 到 高 维 词 库 形成 句 向 量 进行 迭代 ,对 句子 进行 评价 ,选取 评价 较 高 的 句子 作为 摘要 ， 从 而 
有 效 的 提升 了 摘要 质量 ; 章 成 志 等 设计 了 基于 细 粒 度 评论 挖掘 的 书评 摘要 方法 , 为 图 书信 息 
提供 了 多 维度 ， 细 粒度 的 评价 外 ， 王 晓 宇 对 传统 的 基于 图 (graph-based) 方法 中 的 文本 图 构 
建 和 词 加 权 方式 进行 改进 ,使 算法 根据 句子 单词 的 依存 关系 ， 生 成 多 种 属性 构成 语义 图 ， 并 
在 此 基础 上 提出 融合 关键 词 位 置信 息 、 概 念 层级 和 连接 强度 等 词 权重 计算 方法 , 进行 
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排序 ， 选 择 高 分 节点 作为 关键 词 集合 ， 有 了 一 定 的 提高 申 。 从 用 户 角 度 来 看 ， 现 有 摘要 的 语 


义 连贯 性 和 可 读 性 还 有 一 定 的 局 限 ， 从 认 知 计算 角度 把 不 同 认 知 负载 的 词义 和 人 句子 向 量化 ， 


2. 3 主题 提取 


生成 以 主题 为 导向 的 新 句子 ， 有 望 形成 更 具 认 知 解释 力 和 准确 性 的 新 技术 。 


主题 是 信息 简报 的 必要 组 成 部 分 。 目 前 国内 主题 抽取 主要 采用 以 隐 狄 利克 雷 分 布 
(Latent Dirichlet Allocation, LDA) 算法 为 代表 的 主题 模型 ， 用 无 监督 学 习 的 方式 对 全 文本 
进行 语义 结构 和 聚 类 分 析 ， 从 文本 中 抽取 有 价值 的 主题 及 主题 关键 词 分 布 。 例 如 石 唱 等 在 
LDA 为 语料库 和 文本 建 模 的 基础 上 进行 文本 分 析 , 其 结果 要 明显 高 于 其 他 方法 四 ; 曲靖 野 等 
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DE 22 年 来 国内 信息 服务 研究 主题 演化 情况 ， 为 该 领域 的 可 持续 发 


GPT、BERT 等 , 其 


展 提 供 借鉴 和 指导 外。 常见 的 基于 语言 模型 的 深度 学 习 方 法 有 NNLM、word2vec、Elmo、 


中 BERT 是 深层 双向 Transformer 预 训练 语言 模型 , 是 NNLM、 Word2vec、 


ELMO 和 GPT 等 embedding 技术 的 集大成 者 。 李 松 繁 等 提出 了 一 种 基于 BERT 的 前 沿 研究 


主题 识别 方法 ， 实 现 农业 领 域 前 治 研 究 主题 的 识别 加。 如 何 将 主题 抽取 与 摘要 生成 进行 一 体 


化 设计 ， 还 需要 i 


WA 


Tio 


总 体 而 言 ， 学 术 界 对 简报 生成 研究 已 经 有 丰富 成 果 ， 同 时 还 存在 两 个 突出 问题 , 一 是 技 


术 算 法 研究 多 而 认 知 方面 的 研究 偏 少 , 对 摘要 深层 次 的 理论 解释 力 稍 显 不 足 ; 二 是 摘要 与 关 


m 


测评 和 验证 。 


键 词 抽取 往往 分 割 ， 应 该 对 其 内 在 关系 进行 一 体 化 处 理 ， 从 而 提高 简报 生成 效率 和 一 致 性 。 
因此 ， 本 文 引入 了 选择 性 注意 “衰减 ”模型 ， 并 与 KeyBert、Transformer 算法 结合 ， 为 信息 
简报 提出 了 可 行 的 认 知 计算 依据 和 实现 方案 , 最 后 从 信息 炉 和 ROUGE 值 两 个 方面 进行 量化 


3. 理论 依据 和 总 体 框架 设计 
3. 1 选择 性 注意 衰减 模型 与 认 知 负载 因素 


言 息 简报 生成 机 


出 可 以 从 认 知 科学 的 “注意 ”研究 中 得 到 有 益 的 启示 。“ 注意” 是 一 种 聚 


焦 于 特定 刺激 的 能 力 。 大 多 数 情况 下 ， 注 意 的 聚焦 特性 是 与 “选择 性 注意 ”相关 联 的 ， 即 人 
类 能 够 将 注意 聚焦 或 分 配 在 一 个 特定 的 位 置 、 课 题 或 者 信息 上 。 认 知心 理学 家 Broadbent 提 


出 的 “过 滤器 理论 ”(FilterTheory) 认为 ， 人 类 可 以 将 一 些 信息 过 滤 掉 ， 从 而 允许 另 一 些 信 
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对 过 滤器 模型 的 改进 ， 未 被 注意 的 信息 并 未 被 真正 过 滤 ， 而 只 是 被 加 工 的 可 能 有 差异 而 已， 


从 而 免 受 “信息 过 载 ” 的 困扰 。Treisman 提出 的 “衰减 器 ”理论 是 


进而 通过 认 知 实验 表明 ， 物 理 特性 、 语 言 、 语 义 都 可 以 用 户 注 意 到 ， 并 用 来 吸收 信息 。 其 模 
型 如 图 1 所 示 。 通 过 衰减 器 ， 各 类 信息 都 有 机 会 被 进行 加 工 或 者 过 滤 ， 最 终 形成 记忆 。 认 知 
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负载 是 指 在 执行 某 项 认 知 任务 时 所 需要 的 认 知 资源 数量 。 对 于 熟悉 或 者 简单 任务 而 言 ， 认 知 
负载 较 低 ， 对 陌生 或 困难 任务 则 需要 分 配 更 多 的 认 知 资源 ， 其 认 知 复杂 相对 较 高 。 
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图 1 选择 性 注意 衰减 模型 理论 图 

选择 性 注意 衰减 模型 为 信息 简报 的 自动 生成 提供 了 重要 理论 依据 。 表 现在 3 个 方面 ， 
(1) 摘要 过 程 实际 上 是 人 人 类 分 配 认 知 资源 对 信息 进行 过 小 的 过 程 ， 语 言 特征 和 语义 是 摘 
要 的 核心 依据 ,传统 依据 词 频 、 位 置 等 外 在 特征 的 摘要 抽取 之 外 ,还 应 该 以 语义 为 中 心 进行 
抽取 。(2) 作为 语义 载体 的 词汇 和 句子 对 人 的 认 知 负载 有 差异 ,对 信息 简报 生成 的 作用 应 该 
综合 考虑 。 关 键 词 多 数 属于 低 负载 ， 而 摘要 则 属于 高 认 知 负载 ， 关 键 词 对 于 摘要 属于 相 容 侧 
干扰 项 ， 有 助 于 以 较 低 的 认 知 复杂 实现 信息 的 高 层 加 工 和 特征 整合 。(3 ) 信息 摘要 往往 采用 
多 重任 务 并 行 执行 方式 生成 多 个 并 行 的 摘要 文本 , 但 从 非 注 意 任务 中 获取 信息 仍 有 可 能 , 分 
配 注意 的 能 力 可 以 通过 信息 量 或 者 与 语义 一 致 性 进行 训练 , 逐步 实现 自动 化 加 工 。 本文 设 计 
的 框架 图 也 是 在 这 一 理论 的 指导 下 进行 ， 并 采用 算法 进行 实现 和 验证 。 
3. 2 文本 自动 摘要 框架 流程 图 

结合 3.1 节选 择 性 注意 力 衰减 模型 理论 ,本 文 设计 了 信息 简报 生成 主要 框架 ， 如 图 2 所 
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图 2 自动 摘要 框架 流程 
该 框架 包括 三 个 模块 ， 分 别 是 获取 数据 、 文 本 摘要 和 主题 抽取 、 生 成 简报 


(1) 文 本 抽取 : 文本 抽取 是 生成 简报 的 准备 条 件 , 首先 根据 需求 选择 信息 来 源 , 确定 目的 


文本 ， 


“i, 


剔除 图 表 和 公式 等 信息 元 素 。 其 次 导入 jieba 中 文 分 词 库 对 文本 进行 预 处 理 ， 去 除 语 


标点 符号 等 。 


(2) 文 本 摘要 、 主 题 仆 取 : ”进行 计算 之 前 通过 导入 word2ve 库 对 输入 语 料 向 量化 处 理 ， 
再 通过 Transformer 计算 生成 新 的 语 料 后 ， 利 用 ROUGE EAA HET HRP, Be 
一 步 处 理 形成 文本 摘要 ; 将 语 料 向 量化 处 理 后 ， 调 用 KeyBERT 算法 库 进行 关键 词 抽取 形成 


关键 词 集 , 再 经 过 过 滤 和 排序 处 理 后 形成 主题 词 ,文本 摘要 和 主题 词 构成 了 简报 的 主要 内 容 。 
3. 3 基于 选择 性 注意 衰减 模型 的 计算 方法 


该 理论 强调 了 计算 机 在 文本 计算 过 程 中 ， 能 够 对 和 输入 文本 内 容 的 重要 性 进行 主动 筛 
选 ， 将 更 多 的 注意 力 分 配给 更 重要 的 文本 上 ， 筛 选 过 滤 掉 文本 中 具有 干扰 性 的 低 负载 信 
息 。 因 此 本 文 以 该 理论 为 依据 ， 借 助 开 源 算法 设计 了 简报 生成 的 关键 方法 。 


3.3.1 


基于 KeyBERT 方法 的 关键 词 抽 取 


主题 词 是 信息 简报 的 基本 组 成 , 它 是 从 关键 词 中 抽取 出 来 的 能 够 显示 文本 结构 和 语义 的 


词语 ， 


可 以 帮助 用 户 抓 住 文本 重要 信息 点 ， 实 现 对 文本 的 主要 内 容 进 行 整体 把 握 ， 充 当 读者 


阅读 摘要 的 线索 。KeyBERT 是 一 种 小 型 且 易 用 的 关键 词 抽取 技术 ， 该 算法 的 核心 依然 基于 
选择 性 衰减 注意 力 ， 通 过 对 文本 进行 向 量化 后 ， 再 以 语义 计算 为 过 程 导 向 进行 权 值 计算 ， 它 
使 用 BERT 典 入 和 简单 的 余弦 相似 度 创 建 与 文档 最 贴 合 的 关键 词 或 短语 。 

在 本 文中 ， 首 先 利 用 BERT 计算 文档 的 embedding 值 ， 从 而 获取 文档 向 量 级 别 的 表示 。 
然后 针对 n-gram 提取 词 向 量 ， 最 后 利用 余弦 相似 度 来 确定 与 文档 最 相似 的 关键 字 或 关键 短 
语 , 就 能 得 到 最 能 描述 整 篇 文档 的 关键 词 。 在 关键 词 的 基础 上 , 结合 原文 主题 内 容 对 关键 词 
进一步 得 选 ， 剔除 关键 词 中 表达 主题 性 弱 的 词汇 ， 筛 选 出 的 结果 能 很 好 的 表达 文本 主题 ， 与 


3. 3.2 


生成 式 摘要 结果 达成 匹配 为 读者 提供 多 维度 的 关键 信息 。 


基于 Transformer 模型 的 摘要 名 生成 


Transformer 基本 原理 是 在 encoder-decoder 的 模型 中 加 入 了 一 个 加 权 计 算 来 表示 每 次 词 
句 的 影响 权重 。 它 通过 文本 本 身 的 注意 力 训练 从 而 构建 句子 之 间 的 关系 表示 [31。Transformer 
每 一 层 都 包含 一 个 多 头 注 意 力 机 制 和 前 馈 神 经 网 络 ， 如 图 3 所 示 。 

在 本 文中 ， 先 将 需要 输入 的 文本 进行 词 向 量 转换 ， 再 通过 encoder-decorder 层 进 行 
attention scores 计算 ， 构建 其 句子 的 权重 关系 ， 最 后 经 softmax 计算 后 输出 摘要 结果 。 相 比 


TAH 


研究 抽取 式 文本 摘要 或 者 基于 LSTM 等 深度 学 习 摘 要 ，Transformer 通过 循环 多 次 的 


自 注意 力 的 计算 ， 不 但 使 得 其 并 行 计算 效率 增加 ， 也 提高 了 其 计算 性 能 和 计算 质量 。 
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ENCODER 
ENCODER 
ENCODER 


Enc 


Self-Attention 


Linear 


输入 语 料 


DECODER 


3 Transformer 模型 图 
3.4 简 报 质量 评价 指标 
3.4.1 简报 信息 衡量 : A 
言 息 炉 是 用 来 衡量 系统 中 信息 量 大 小 ， 从 文本 信息 的 角度 而 言 ， 一 段 文 字 的 炉 值 越 高 ， 
则 表明 这 段 文本 所 含 的 信息 量 越 高 。 它 的 应 用 比较 广泛 , 可 以 用 于 验证 不 同 语种 表达 相同 含 
义 下 所 需 文本 容量 ， 也 可 验证 特定 文本 信息 含量 大 小 。 信 息 粹 的 数学 公式 可 以 表示 为 11; 


H(z) = pe P(e)log( ts) 过 二 了 P(z)log(P(7)) 


其 中 ，x 表示 随机 变量 ， 它 的 取 值 为 (x1,x2......xn)〉,p(xi) 表 示 事 件 xi 发 生 的 概率 ， 通 常情 
况 下 信息 发 生 的 概率 越 大 , 则 这 个 事件 所 包含 的 信息 越 小 ， 汪 p(xi)=1， 即 所 有 随机 事件 的 概 
率 和 为 1， 引 入 到 文本 信息 量 计算 中 则 表示 一 段 文本 所 包含 的 随机 信息 的 概率 。 考 虑 到 文本 
内 容 包含 语义 计算 涉及 词汇 较 多 , 故 选取 二 元 模型 (bi-gram) 对 文本 进行 信息 焙 的 计算 0。 
利用 信息 炉 来 判断 文本 摘要 信息 含量 , 可 从 信息 量 的 维度 对 生成 式 文本 摘要 质量 进行 量化 描 
述 。 本 实验 利用 python 语言 提供 的 开源 代码 构建 信息 炉 计算 流程 ， 对 生成 的 摘要 进行 分 词 
处 理 后 再 用 wordtovec 方法 进行 文本 向 量化 表示 ,最 后 通过 信息 粹 公式 进行 计算 并 输出 结果 。 
通过 对 有 关 信 息 粹 文献 和 资料 的 调研 可 知 ， 不 同 语言 种 类 文字 以 及 表达 方法 与 信息 炉 
KAI. SB. ie, POE Ea: 同一 语言 下 ， 不 同 认 知 的 人 群 如 
学 者 、 儿 童 等 描述 同一 内 容 的 文字 信息 人 也 存在 差异 。 因 此 通过 计算 摘要 结果 的 信息 业 值 ， 
并 将 该 值 与 中 文 文本 的 信息 炉 标 准 指标 进行 对 比 , 可 验证 该 生成 式 摘 要 结果 的 认 知 水 平 是 否 
达到 标准 。 
3.4.2 简报 质量 评测 :ROUGE 值 


ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是 评价 文本 摘要 质量 的 常用 
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指标 。 其 通过 参考 文 与 实验 文本 之 间 共 现 的 词语 或 句子 个 数 , 来 判断 摘要 结果 的 质量 ， 因 此 
计算 该 指标 需要 获得 由 专家 手动 生成 人 工 摘要 作为 标准 摘要 集 ， 与 机 器 生成 的 摘要 作为 对 
比 。 用 公式 表示 为 : 


ba Count yr (gramy ) 


ROU G E S N = Se{ ReferenceSummaries} gramy eS 
> Count( gram, ) 


Se{ ReferenceSummaries} gramy ES 
ROUGE-N， 其 中 N 表示 N-gram， 代 表 了 分 母 为 参考 文本 中 N-gram 个 数 ， 分 子 为 摘要 结果 
中 N-gram 的 个 数 ， 进 行 评 价 时 通常 以 ROUGE-1，ROUGE-2 为 指标 。 
除 以 上 两 个 指标 外 ， 为 增强 评价 的 说 服 性 ， 本 文 还 参考 了 最 长 公共 子 序列 计算 方式 ， 即 


ROUGE-L， 其 计算 公式 为 : 


Rene — LOS(C, 8S) 
ros ~~ Ten(S) 
p- = LEME, S) 
oe len(C) 


(1+ 8?)RicsPics 
Rios 十 D2Prcs 


其 中 ，C，S 分 别 表示 参考 文本 和 实验 文本 LCS(C,S), 表 示 为 文本 C 与 S 之 间 最 长 公共 
子 序列 长 度 , len(S) 和 len(C) 分 别 表示 两 个 文本 的 长 度 ,， Rlcs 表示 召回 率 , Ples 表示 准确 率 ， 
Flcs 即 是 ROUGE-L。B 则 表示 一 个 非常 大 的 数 , 因此 经 过 推导 公式 后 发 现 , Fles 几乎 等 Rlcs。 
本 文生 成 的 摘要 主要 为 短文 本 ， 单 文档 摘要 ， 故 采用 ROUGE-2,ROUGE-L 两 个 值 作为 评价 
指标 。 
4. 实证 研究 
本 文 从 国际 教科 文 组 织 网 站 中 选取 了 50 篇 有 关 教 育 话题 的 新 闻 或 报告 作为 实验 文本 ;， 其 
次 利用 开源 工具 对 目的 文本 进行 爬 取 、 储 存在 数据 库 中 , 并 通过 入 工 方式 进行 简单 清洗 和 预 
处 理 ， 剔 除 语气 词 、 连 接 词 、 图 表 、 复 杂 的 公式 和 数字 等 等 ， 并 将 文本 进行 向 量化 处 理 ， 以 
便于 后 续 程序 的 进一步 计算 ; 最 后 将 文本 数据 在 构建 好 的 模型 下 进行 循环 计算 , 计算 出 生成 
式 的 文本 摘要 结果 。 
4. 1 数据 采集 

本 研究 数据 来 自 国际 教科 文 组 织 “UNESCO)， 选 择 教育 方面 的 报告 作为 实验 文本 ， 具 
有 可 读 性 和 参考 价值 。 按 照 3.1 流程 图 所 示 , 利用 python 中 selemium 库 选 取 了 UNESCO 中 
50 个 具有 代表 性 的 报告 进行 初步 人 工 预 处 理 后 储存 在 数据 库 中 。 其 次 ， 对 数据 库 中 的 文本 


Frcs = 


数据 进行 分 词 ， 去 除 停 
4. 2 文本 摘要 自动 生成 


本 节 按 照 3.2 节 提 


j 词 等 操作 后 完成 预 处 理 。 


出 的 总 体 框 架 进 行 实例 验证 。 首先 , 将 预 处 理 


后 的 文本 导入 python, 


通过 jieba 分 词 库 进行 分 词 处 理 ， 再 利用 word2vec 转化 成 向 量 表示 便于 计算 。 然 后 ， 依 据 


选择 性 注意 衰减 模型 理论 ， 利 


在 关键 词 集 的 基础 上 , 抽取 围 


键 词 进行 排序 ， 最 终 


开源 了] 
集 数据 预 处 理 为 机 器 可 识别 的 词 所 
词 集 。 在 此 基础 上 ， 本 文 建立 了 可 量化 的 信 
绕 着 文本 主题 叙述 的 关键 词 
成 规范 化 的 信息 简报 。 部 分 实验 结果 如 表 1 所 示 。 


量 后 , 通过 已 有 框架 进行 计算 , 分 别 生 成 文本 摘要 和 关键 
FSG ROUGE 值 对 文本 摘要 结果 进行 量化 评价 ; 
作为 主题 词 , 并 按照 文本 顺序 对 关 


[三 


表 1 部 分 生成 式 文本 摘要 


[ 具 搭建 的 Transformer 及 KeyBERT 算法 框架 ,将 采 


序号 结果 
文本 1: 摘要 联合 国教 科 文 组 织 发 起 了 一 项 全 球 范围 的 "快乐 学 校 倡 议 "。 学 校 应 该 


BOA SEA 


参与 来 培养 学 生 对 学 习 的 终生 热爱 ， 


来 阻止 学 生 学 习 ， 从 而 损害 个 人 的 幸福 。 
科 文 组 织 正在 向 全 世界 发 起 。 EA H 


[会 凝聚 力 的 场所 , 创造 跨越 差异 的 社区 。 学 校 也 应 该 通过 快乐 和 


而 不 是 通过 将 学 习 成 绩 置 于 一 切 之 上 


幸福 学 校 ME 


整个 大 陆 和 


国家 


所 和 亚洲 


国际 教 


al 


FE 在 走向 全 球 , AL 
的 是 帮助 全 球 的 学 生 和 教育 工作 者 , 由 


TER 
KKE 


有 会 的 


际 学 校 教育 的 


联合 国教 科 文 组 织 发 起 , 旨 在 帮助 儿童 和 教育 工作 者 。 它 将 成 为 全 世界 学 校 
和 教育 工作 者 的 一 个 全 球 模式 , 这 是 一 个 国 
的 年 轻 人 和 教育 工作 者 ， 
Fy HLS o> DA Be tht FRAC BES 


国际 模式 , 以 帮助 
5 洲 教育 的 全 球 教 育 研究 
事 会 发 起 的 。 


文本 1: 主题 


联合 国教 科 文 组 织 ， 全 世界 ， 年 轻 人 ， 翌 让 


mfal, 4 


BY HX 


学 校 ， 提高 ， 学 生 ， 凝聚 力 ， are 


EP", RA, MEER, 


MAS 2: 摘要 


所 有 的 教育 系统 中 (87%), FB 
工作 。 男 孩 和 女孩 在 数学 领域 工作 的 愿望 与 他 们 对 自己 在 该 学 科 的 能 力 的 
信心 密切 相关 。 这 表明 ， 解 决 女孩 对 科学 和 数学 
政策 制定 者 的 关注 点 。 国 际 教育 协会 指南 针 指出 ， 这 可 双 
现 出 色 的 女孩 进入 STEM 高 等 教育 领域 教育 系列 简报 。 该 报告 发 表 在 TEA 
样本 为 25 万 名 学 生 ， 显 示 8 年 级 时 希望 从 
的 男孩 多 于 女孩 。 


的 TIMSS 2019 年 数据 特刊 上 ， 
事 数学 或 科学 相关 职业 上 


2017 年 ， 在 全 球 范围 内 ， 超 过 三 分 之 二 的 国 
建筑 或 信息 和 通信 技术 〈ICT) 的 人 中 只 有 不 到 四 分 之 一 是 女性 。 在 几乎 


家 中 ， 学 习 工程 、 制 造 和 


孩 比 女孩 更 经 常 回答 他 们 想 从 事 涉及 数学 的 


的 信心 问题 应 该 继续 成 为 
上 会 导致 更 少 的 表 


文本 2: 主题 


联合 国教 科 文 组 织 ， 
功 ， 成 就 ， 分 析 ， 信 心 ， 不 同 


国家 ， 科 学 和 


究 ， 统 计 学 ， 四 分 之 一 ， 女 孩 ， 取 得 成 


文本 3: 摘要 


器 在 灰尘 


在 东南 亚 ， 如 果 一 个 孩子 的 温度 高 于 平均 水 平 2 个 标 疹 
减少 1.5 年 的 学 业 。 学 年 平均 温度 上 升 1.8*C， 学 习 成 绩 就 会 下 降 1%， 超 


E 差 ， 预 计 他 将 


因为 怀疑 有 神经 毒性 。 
的 考试 成 绩 和 中 学 后 的 教育 程度 。 一 项 对 西 班 


ENEZ), BEF 


过 32.2°C 的 6 天 也 是 如 此 。 假 设 最 佳 温度 低 于 22*C， 教 室 里 的 温度 从 
30°C 降 到 20°C 将 使 考试 成 绩 平均 提高 20%。 污 染 的 
能 力 ， 也 许 是 不 可 逆转 的 ， 
PF， 也 会 降低 学 生 


空气 会 大 大 降低 认 知 


DES 
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牙 巴 塞 罗 那 近 3000 名 儿童 的 队列 研究 发 现 ， 在 调整 了 社会 经 济 地 位 后 ， 
那些 暴露 在 西班牙 高 污染 水 平 下 的 儿童 ， 其 认 知 发 展 的 增长 低 于 污染 较 少 
的 学 校 的 同龄 人 的 发 展 增长 。 


文本 3: 主题 | 阿拉 伯 联 合 症 长 国 ， 高 温 ， 高 污染 ， 平 均 气 温 ， 造 成 ， 考 试 成 绩 ， 中 学 ， 
年 限 ， 降 低 ， 认 知 ， 发 展 


基于 选择 性 注意 衰减 理论 的 计算 框架 ， 将 文本 摘要 与 主题 抽取 深入 到 了 语义 理解 层次 ， 
再 重新 组 织 文本 生成 新 的 语 料 09， 使 得 摘要 结果 自然 , 具有 较 强 解释 力 ， 相对 比 抽取 式 摘要 
文本 衔接 更 为 流畅 。 

TID ARE TCS EI, ORT 10 篇 文献 的 摘要 信息 含量 进行 评 
价 ， 计 算 结果 如 图 4 所 示 ， 横 坐标 轴 代 表 了 十 个 计算 结果 ， 纵 坐标 代表 了 信息 箭 ,柱状 图 顶 


BBS AN I REMI EZ AR fa IRE o 


a= 
7.2 = Bp 
6.988 
6.908 6.953 6.924 
6.828 6.799 6.82 6.823 6.779 
6.8 6.706 
6.6 
6.4 
6.2 
6 
1 2 3 4 5 6 7 8 9 10 


图 4 摘要 质量 测评 : Faw 
通过 随机 对 十 个 摘要 结果 进行 了 灶 值 计算 并 统计 ， 对 表 1 CAST BE RAIA 5 A 
Th oI TEAS PSEA BI 6.852; 通过 文献 和 资料 调研 对 中 文 文本 信息 炳 实验 
结果 调研 发 现 ， 基 于 2-gram WSCC AME SURES FP 4-8 之 间 ， 表 明 该 方法 生成 的 摘要 
A Rs AIA BU PSCC AME SURE, FE AHURA 
除 此 以 外 , 本 实验 从 ROUGE 值 进 一 步 验 证 摘要 结果 的 质量 。 验证 召回 率 需 要 合适 的 参 
考 摘要 , 为 了 使 研究 结论 更 具有 客观 性 , 本 文采 取 人 工 方法 分 别 对 所 抽取 的 十 个 文本 生成 摘 
要 作为 参考 答案 ， 便 于 计算 召回 率 。 计 算 结 果 如 下 图 5 所 示 ， 参 考 3.4.2 Ke BIAS AN 
该 折线 图 显示 的 结果 是 通过 人 工 生 成 参考 摘要 与 实验 得 到 摘要 之 间 的 词 共 现 率 实现 的 , 从 折 
线 图 的 趋势 可 以 看 出 , 由 于 ROUGE-2 运算 时 考虑 连续 两 个 词 向 量 , 而 ROUG-L 是 依赖 连续 
多 个 词 向 量 , ROUGE-2 值 普 裔 大 于 ROUGE-L 值 。 
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06 
7 0 
0.349 j T343 0:33 0-331 E bs ©0365 
1 2 3 4 5 6 7 8 9 10 
样本 
ome TO UE C-2 rouge 


5 摘要 质量 测评 : ROUGE 值 


选择 ROUGE-2, ROUGE-L 参考 标准 作为 指标 进行 评价 ， 评 价 的 标准 为 生成 式 文本 摘 
要 与 参考 人 工 摘要 的 文本 复 现 率 。 本 文 所 抽取 样本 在 ROUGE-2、ROUGE-L 两 个 指标 平均 


值 分 别 为 0.432 和 0.367, 该 结果 与 文献 《基于 最 大 边界 相关 度 的 
等 多 篇 文章 对 基本 持平 03, 但 生成 式 摘 要 的 可 读 性 更 高 。 究 其 原因 ， FRE EM 
导 的 生成 式 文 本 摘要 本 质 上 是 通过 深层 次 的 语义 计算 实现 对 高 认 疼 


I 取 式 文本 摘要 模型 研究 》 


这 些 文本 进行 重新 组 织 生 成 简洁 、 自 然 的 语句 。 
4.3 简报 生成 


简报 包括 主题 词 和 摘要 两 部 分 。 主 题词 的 作 月 


RW AA 


I 负载 信息 加 工效 果 , 并 对 


是 帮助 读者 快速 了 解 文章 的 关键 信息 点 。 


主题 词 所 提供 的 信息 较为 发 散 、 属 于 低 认 知 负载 的 信息 加 工 , 读者 可 以 通过 主题 词 了 解 文章 
的 主要 脉络 。 摘 要 是 文章 信息 的 浓缩 , 包含 了 文章 的 具体 信息 ,读者 可 以 阅读 摘要 来 理解 文 
章 大 意 053。 通 过 摘要 生成 和 主题 抽取 两 个 维度 的 信息 处 理 ， 能 够 较为 充分 描述 文本 信息 。 


主题 词 与 文本 摘要 作为 简报 产品 的 重要 组 成 成 分 ， 相 加 


和 相 成 , 在 内 容 和 主题 把 握 上 有 着 


较 强 的 联系 : 摘要 是 主题 词 的 扩展 深化 部 分 ， 主 题词 是 摘要 的 核心 信息 。 文 本 摘要 和 主题 词 


并 行 计 算 、 相 互 参照 ,通过 若干 主题 词 的 描述 可 以 一 定 程度 上 对 文本 要 点 进行 挖掘 ， 


成 信息 简报 。 
5. 结论 


< 同 构 


本 文 将 认 知 科学 中 的 选择 注意 力 衰 减 理论 和 信息 简报 生成 方法 相互 结合 , 设计 了 融合 关 


KeyBERT 方法 进行 了 实说 


键 词 抽 取 和 生成 式 摘要 的 信息 简报 生成 框架 ， 


以 Unesco 数据 为 例 ， 采 用 Transfomer 和 


研究， 实验 结果 表明 ， 选 择 性 注意 衰减 模型 能 够 兼顾 关键 词 、 句 


子 和 篇 章 ， 符 合 信息 处 理 的 认 知 负载 水 平 ， 具 有 较 强 的 解释 力 和 科学 性 ， 而 且 在 技术 方面 则 


RA fe SV A ROUGE 值 进行 讨 


F 价 ,根据 不 同 认 知 负载 水 平生 成 不 同 颗粒 度 的 信息 简报 , 对 
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于 实现 情报 监测 、 决 策 支持 有 一 定 的 应 用 价值 。 今 后 ,对 选择 性 注意 的 影响 因素 和 机 制 进 


步 细 分 和 探究 ， 有 助 于 将 认 知 科学 与 情报 技术 有 机 结合 ， 提 高 情报 产品 可 解释 性 与 准确 性 ， 
是 值得 探讨 的 方向 。 
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Abstract: [ Purpose /significance ] Briefings are an important intelligence product. Unesco 
publishes a large amount of high-value specialized literature, and in order to meet the needs of users 
for international expertise, it is necessary to quickly develop information briefings and improve 
intelligence services. [Method /Process] Based on the “Selective Attention Decay Theory” in 
Cognitive Science, this paper investigates the Generation of Information Briefings as an analog 
process of human cognitive information processing, and investigates the method of Automatic 
Cross-Linguistic Summary Generation. Based on the “ Decay Model” of Selective Attention, an 
integrated design was developed using the Cognitive Load Capacity at three levels: topics, topic 
sentences, and briefings. Then, the KeyBERT and Transformer algorithms were used to extract topic 
words and generate abstracts for the scientific and technical reports published by Unesco, and the 
information briefings were generated quickly and evaluated using Information Entropy and ROUGE 
Values. [Result/conclusion] The experiments show that the method has advantages in Information 
Entropy and ROUGE-2 and ROUGE-L Values, indicating that the Selective Attention Decay Model 
can improve the summary effect and cover the core information of the text. The study further finds 
that the close integration of Cognitive Science and Computational Models has a significant effect 
on improving the interpretability and scientific quality of information briefings, resulting in a 
computable and interpretable model for Information Briefing Generation and knowledge services. 


Keywords: Knowledge Discovery; Elective Attention; text summarization; topics extraction 


